Эволюция архитектур ММЛМ
Эволюция многообластных больших языковых моделей (ММЛМ) означает переход от специализированных модальных изоляторов к единым пространствам представления, где не текстовые сигналы (изображения, звук, 3D) преобразуются в язык, понятный ЛМ.
1. От визуального к мультимодальному
- Ранние ММЛМ:Основное внимание уделялось трансформерам для изображений (ViT) для задач обработки изображений и текста.
- Современные архитектуры: Интегрируют звук (например, HuBERT, Whisper) и точечные облака 3D (например, Point-BERT), чтобы достичь истинной мультимодальной интеллектуальности.
2. Мост проекции
Для соединения различных модальностей с ЛМ требуется математический мост:
- Линейная проекция: Простое отображение, используемое в ранних моделях, таких как MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$ - Многослойный перцептрон: Подход с двумя слоями (например, LLaVA-1.5), обеспечивающий лучшую согласованность сложных признаков за счёт нелинейных преобразований.
- Переобразователи/абстрагирующие элементы: Современные инструменты, такие как пересборщик (Perceiver Resampler, Flamingo) или Q-Former, которые сжимают многомерные данные в фиксированную последовательность токенов.
3. Стратегии декодирования
- Дискретные токены: Представление выходных данных как конкретных записей в словаре (например, VideoPoet).
- Непрерывные встраивания: Использование «мягких» сигналов для управления специализированными генераторами на нижних уровнях (например, NExT-GPT).
Правило проекции
Чтобы ЛМ мог обрабатывать звук или 3D-объект, сигнал должен быть спроектирован в существующее семантическое пространство ЛМ, чтобы он воспринимался как «сигнал модальности», а не как шум.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.